由于球形摄像机的兴起,单眼360深度估计成为许多应用(例如自主系统)的重要技术。因此,提出了针对单眼360深度估计的最新框架,例如Bifuse中的双预测融合。为了训练这样的框架,需要大量全景以及激光传感器捕获的相应深度地面真相,这极大地增加了数据收集成本。此外,由于这样的数据收集过程是耗时的,因此将这些方法扩展到不同场景的可扩展性成为一个挑战。为此,从360个视频中进行单眼深度估计网络的自我培训是减轻此问题的一种方法。但是,没有现有的框架将双投射融合融合到自我训练方案中,这极大地限制了自我监督的性能,因为Bi-Prodoction Fusion可以利用来自不同投影类型的信息。在本文中,我们建议Bifuse ++探索双投影融合和自我训练场景的组合。具体来说,我们提出了一个新的融合模块和对比度感知的光度损失,以提高Bifuse的性能并提高对现实世界视频的自我训练的稳定性。我们在基准数据集上进行了监督和自我监督的实验,并实现最先进的性能。
translated by 谷歌翻译
在设备训练中,该模型可以通过微调预训练的模型来适应从传感器中收集的新数据。但是,对于具有少量内存资源的物联网设备,训练记忆消耗是过敏的。我们提出了一个算法 - 系统共同设计框架,以便仅使用256KB的内存使设备训练成为可能。在设备训练面临两个独特的挑战:(1)由于比特精确的混合和缺乏归一化而难以优化神经网络的量化图; (2)有限的硬件资源(内存和计算)不允许完整的向后计算。为了应对优化难度,我们提出了量化缩放量表来校准梯度尺度并稳定量化训练。为了减少内存足迹,我们提出稀疏更新,以跳过不太重要的层和子张量的梯度计算。该算法创新是由轻量级训练系统(小型训练引擎)实现的,该系统可修剪向后的计算图,以支持稀疏更新并卸载运行时自动分化以编译时间。我们的框架是第一个实用解决方案,用于在微型IoT设备上进行视觉识别的设备转移学习(例如,仅具有256KB SRAM的微控制器),使用少于1/100的现有框架的存储器,同时匹配云训练的准确性+Tinyml应用程序VWW的边缘部署。我们的研究使IoT设备不仅可以执行推理,还可以不断适应新的数据,以实现终身学习。
translated by 谷歌翻译
Online continual learning (OCL) aims to enable model learning from a non-stationary data stream to continuously acquire new knowledge as well as retain the learnt one, under the constraints of having limited system size and computational cost, in which the main challenge comes from the "catastrophic forgetting" issue -- the inability to well remember the learnt knowledge while learning the new ones. With the specific focus on the class-incremental OCL scenario, i.e. OCL for classification, the recent advance incorporates the contrastive learning technique for learning more generalised feature representation to achieve the state-of-the-art performance but is still unable to fully resolve the catastrophic forgetting. In this paper, we follow the strategy of adopting contrastive learning but further introduce the semantically distinct augmentation technique, in which it leverages strong augmentation to generate more data samples, and we show that considering these samples semantically different from their original classes (thus being related to the out-of-distribution samples) in the contrastive learning mechanism contributes to alleviate forgetting and facilitate model stability. Moreover, in addition to contrastive learning, the typical classification mechanism and objective (i.e. softmax classifier and cross-entropy loss) are included in our model design for faster convergence and utilising the label information, but particularly equipped with a sampling strategy to tackle the tendency of favouring the new classes (i.e. model bias towards the recently learnt classes). Upon conducting extensive experiments on CIFAR-10, CIFAR-100, and Mini-Imagenet datasets, our proposed method is shown to achieve superior performance against various baselines.
translated by 谷歌翻译
对于单眼深度估计,获取真实数据的地面真相并不容易,因此通常使用监督的合成数据采用域适应方法。但是,由于缺乏实际数据的监督,这仍然可能会导致较大的域间隙。在本文中,我们通过从真实数据中生成可靠的伪基础真理来开发一个域适应框架,以提供直接的监督。具体而言,我们提出了两种用于伪标记的机制:1)通过测量图像具有相同内容但不同样式的深度预测的一致性,通过测量深度预测的一致性; 2)通过点云完成网络的3D感知伪标记,该网络学会完成3D空间中的深度值,从而在场景中提供更多的结构信息,以完善并生成更可靠的伪标签。在实验中,我们表明我们的伪标记方法改善了各种环境中的深度估计,包括在训练过程中使用立体声对。此外,该提出的方法对现实世界数据集中的几种最新无监督域的适应方法表现出色。
translated by 谷歌翻译
从手绘中生成图像是内容创建的至关重要和基本任务。翻译很困难,因为存在无限的可能性,并且不同的用户通常会期望不同的结果。因此,我们提出了一个统一的框架,该框架支持基于扩散模型的草图和笔触对图像合成的三维控制。用户不仅可以确定输入笔画和草图的忠诚程度,而且还可以确定现实程度,因为用户输入通常与真实图像不一致。定性和定量实验表明,我们的框架实现了最新的性能,同时提供了具有控制形状,颜色和现实主义的自定义图像的灵活性。此外,我们的方法释放了应用程序,例如在真实图像上编辑,部分草图和笔触的生成以及多域多模式合成。
translated by 谷歌翻译
当前的图像到图像翻译方法通过条件生成模型来制定任务,从而仅学习重塑或区域变化,因为条件上下文提供的丰富结构信息受到了约束。在这项工作中,我们建议将矢量量化技术引入图像到图像翻译框架。矢量量化的内容表示不仅可以促进翻译,还可以促进不同域之间共享的无条件分布。同时,加上散布的样式表示,提出的方法进一步使图像扩展能力具有灵活性,并在内域内和域间具有灵活性。定性和定量实验表明,我们的框架与最先进的图像到图像到图像翻译和图像扩展方法的性能可比。与单个任务的方法相比,所提出的方法是统一的框架,释放了组合图像到图像翻译,无条件生成和图像扩展的应用程序。例如,它为图像生成和扩展提供了样式的可变性,并为图像到图像翻译提供了进一步的扩展功能。
translated by 谷歌翻译
近期云的自我监督学习最近取得了很大的关注,因为它在点云任务上解决了标签效率和域间隙问题。在本文中,我们提出了一种新颖的自我监督框架,用于学习部分点云的信息陈述。我们利用包含内容和姿势属性的LIDAR扫描的部分点云,我们表明解开部分点云等两个因素增强了特征表示学习。为此,我们的框架由三个主要部分组成:1)完成网络以捕获点云的整体语义; 2)一个姿势回归网络,了解从扫描部分数据的视角; 3)局部重建网络,以鼓励模型学习内容和构成功能。为了展示学习特征表示的稳健性,我们开展了几个下游任务,包括分类,部分分割和登记,并进行了最先进的方法的比较。我们的方法不仅优于现有的自我监督方法,而且还展示了合成和现实世界数据集的更好普遍性。
translated by 谷歌翻译
零拍分类问题的大多数现有算法通常依赖于类别之间基于属性的语义关系,以实现新型类别的分类而不观察其任何实例。但是,训练零拍分类模型仍然需要训练数据集中的每个类(甚至是实例)的属性标记,这也是昂贵的。为此,在本文中,我们提出了一个新的问题场景:“我们是否能够为新颖的属性探测器/分类器获得零射击学习,并使用它们自动注释数据集以进行标记效率?”基本上,仅给予一小组探测器,这些探测器都学会了识别一些手动注释的属性(即,所见属性),我们的目标是以零射学学习方式综合新颖属性的探测器。我们所提出的方法,零拍摄的属性(ZSLA),这是我们最好的知识中的第一个,通过应用SET操作首先将所看到的属性分解为基本属性,然后重新组合地解决这一新的研究问题。这些基本属性进入了新颖的属性。进行广泛的实验以验证我们合成探测器的能力,以便准确地捕获新颖性的语义,并与其他基线方法相比,在检测和定位方面表现出优越的性能。此外,在CALTECH-UCSD鸟类-200-2011 DataSet上使用仅32个属性,我们所提出的方法能够合成其他207个新颖的属性,而在由我们合成重新注释的数据集上培训的各种广义零拍分类算法属性探测器能够提供可比性的性能与手动地理注释有关的那些。
translated by 谷歌翻译
众所周知,语义分割神经网络(SSNN)产生密集的分割图来解决对象的边界,同时限制了对下采样的网格的预测以减轻计算成本。存在SSNN(例如U-NET)的准确性和训练成本之间的显着平衡。我们提出了一项光谱分析,以研究下采样网格的分辨率,损耗函数和SSNN的准确性之间的相关性。通过分析频域中的网络后传播过程,我们发现传统的损耗函数,跨熵和CNN的关键特征主要受分割标签的低频组件的影响。我们的发现可以通过多种方式应用于SSNN,包括(i)确定有效的低分辨率网格,用于解决分割图(ii)通过截断高频解码器以节省计算成本的高频解码器,以及(iii)使用块 - - 明智的弱注释来节省标签时间。本文中显示的实验结果与我们针对诸如DeepLab V3+和Deep Cotnegation Net(DAN)等网络的光谱分析一致。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译